iT邦幫忙

2021 iThome 鐵人賽

DAY 23
0
AI & Data

我比機器更需要學習系列 第 23

Day23 爬取IG照片

  • 分享至 

  • xImage
  •  

因為最近要推甄了,差不多該做專題了,所以我來紀錄一下過程。

步驟一

利用request套件爬取IG的AJAX,我是爬星巴克的粉專,這個好像叫做動態爬蟲。下面這個是星巴克粉專有標注星巴克的AJAX。

url = "https://www.instagram.com/graphql/query/?query_hash=be13233562af2d229b008d2976b998b5&variables=%7B%22id%22%3A%22193366488%22%2C%22first%22%3A12%7D"

步驟二

然後解析回傳的JSON檔格式,他的格式如下,意思是
在["data"]下有["user"]
在["user"]下有["edge_user_to_photos_of_you"]
在["edge_user_to_photos_of_you"]下有["edges"]
在["edges"]下有第[i]篇貼文
在第[i]篇貼文下有["node"]
在["node"]下有["display_url"]
,看懂後把圖片網址找出來。

["data"]["user"]["edge_user_to_photos_of_you"]["edges"][i]["node"]["display_url"]

步驟三

最後下載到電腦裡。下載的方式很多種,我是用以下的方式,要注意要用OS套件鎖定要存放的位置,不然照片會找不到喔。

urllib.request.urlretrieve(網址,位置)

步驟四

重複前三步驟。

以上是大概的思維,至於要怎麼丟到模型訓練我也還在尋找


上一篇
Day22 影像辨識實作
系列文
我比機器更需要學習23
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言